package biz.almas.uycnr.crawler.utils;

import org.jsoup.Jsoup;
import org.jsoup.nodes.Document;
import org.jsoup.nodes.Element;
import org.jsoup.safety.Whitelist;
import org.jsoup.select.Elements;

/**
 * Title: HTML相关的正则表达式工具类
 * 
 * @Description: Description: 包括过滤HTML标记，转换HTML标记，替换特定HTML标记
 * @Copyright: Copyright (c) 2015 XinJiang Almas Software All Rights Reserved
 * @Company: XinJiang Almas Software
 * @author Ansar786 Sep 7, 2015
 * @version V1.0
 * @history:
 * 
 */
public class HtmlUtil {

	public HtmlUtil() {
	}

	public static String removeHtmlTag(String content) {
		Whitelist wlist = new Whitelist();
		wlist.addTags("p", "img");
		wlist.addAttributes("img", "src");
		String str = Jsoup.clean(content, wlist);
		return str;
	}

	public static String alterImageSrcAttribute(String htmlBody,String baseImageUrl) {
		Document doc = Jsoup.parse(htmlBody);
		Elements pngs = doc.select("img[src]");
		for (Element element : pngs) {
			String imgUrl = element.attr("src");
			imgUrl = baseImageUrl + imgUrl;
			element.attr("src", imgUrl);
		}
		htmlBody = doc.toString();

		return htmlBody;
	}


	public static void main(String[] args) {
		String content = removeHtmlTag("<DIV class='TRS_Editor'>"
				+ "<style id=_Custom_V6_Style_>"
				+ " .TRS_Editor TABLE{font-family:宋体;font-size:14px;}"
				+ " .TRS_Editor{font-family:宋体;font-size:14px;}"
				+ " .TRS_Editor P{font-family:宋体;font-size:14px;margin-top:1em;margin-bottom:1em;line-height:1.4;}"
				+ " .TRS_Editor H1,.TRS_Editor H2,.TRS_Editor H3,.TRS_Editor H4,.TRS_Editor H5,.TRS_Editor H6,.TRS_Editor HR,.TRS_Editor BLOCKQUOTE,.TRS_Editor DL,.TRS_Editor DD,.TRS_Editor DT,.TRS_Editor OL,.TRS_Editor UL,.TRS_Editor LI,.TRS_Editor PRE,.TRS_Editor CODE,.TRS_Editor TEXTAREA,.TRS_Editor SELECT,.TRS_Editor CITE,.TRS_Editor PRE,.TRS_Editor CENTER,.TRS_Editor TABLE,.TRS_Editor DIV{margin-top:1em;margin-bottom:1em;line-height:1.4;} .TRS_Editor FORM,.TRS_Editor FIELDSET,.TRS_Editor LEGEND,.TRS_Editor SELECT,.TRS_Editor TR,.TRS_Editor TD,.TRS_Editor TH{margin-top:1em;margin-bottom:1em;line-height:1.4;} .TRS_Editor BUTTON,.TRS_Editor OPTION,.TRS_Editor ADDRESS,.TRS_Editor DFN,.TRS_Editor EM,.TRS_Editor VAR,.TRS_Editor KBD,.TRS_Editor INPUT,.TRS_Editor SMALL,.TRS_Editor SAMP,.TRS_Editor SUB,.TRS_Editor SUP,.TRS_Editor SPAN,.TRS_Editor A,.TRS_Editor B,.TRS_Editor I,.TRS_Editor U,.TRS_Editor S,.TRS_Editor STRONG,.TRS_Editor LABEL,.TRS_Editor IMG,.TRS_Editor BR,.TRS_Editor FONT{margin-top:0;margin-bottom:0;text-indent:0;} </style> <p align=\"justify\">&nbsp;</p> <p align=\"center\"><font style=\"font-size: 14pt\" face=\"ALKATIP_CNR\"><img style=\"border-top-width: 0px; border-left-width: 0px; border-bottom-width: 0px; border-right-width: 0px\" alt complete=\"complete\" oldsrc=\"W020150818447884411493.jpg\" src=\"W020150818447884411493.jpg\" /></font></p> <p align=\"center\"><font style=\"font-size: 10.5pt\" face=\"ALKATIP_CNR\">1863-يىلى قۇرۇلغان لوندۇن مېتروسى</font></p> <p align=\"justify\"><font style=\"font-size: 14pt\" face=\"ALKATIP_CNR\">2013-يىلى لوندون مېتروسىنىڭ قۇرۇلغىنىغا&nbsp; 150يىل بولغان&nbsp; يىل. بۇ قېتىملىق پائالىيەتنى ئەنگلىيەدىكى 7 ياشتىن 70 ياشقىچە بولغانلارنىڭ ھەممىسى ئوخشاش بولمىغان ئۇسۇلدا تەبرىكلىگەن. بۇ خىل ئاممىۋى قاتناش قۇرالىنىڭ دۇنياغا داڭلىق ماركا بولۇپ قالغانلىقى لوندۇنلۇقلارنى ھەممىدىن بەك پەخىرلەندۈرىدۇ.</font></p> <p align=\"justify\"><font style=\"font-size: 14pt\" face=\"ALKATIP_CNR\">لوندون پېددىنتون يەر ئاستى تۆمۈر يولى بېكىتىدە، يەنىلا شۇ «1-نومۇرلۇق شەھەر لىنىيە»مېتروسى مېڭىۋاتاتتى.&nbsp; 13-يانۋار ئەتىگەندىكى لوندون بىرىنچى ئەۋلاد مېترودىكى قىز-ئوغۇللارنىڭ ھەممىسى 21-ئەسىردە تۇغۇلغان لوندونلۇقلار. ئۇلار بۇ قېتىملىق خاتىرىلەش پائالىيىتىگە 150 فوند ستېرلىڭ تۆلەپ قاتناشقان. ئەمەلىيەتتە 1-ئاينىڭ 9-كۈنى لوندون يەر ئاستى مېتروسىنىڭ تۇنجى قېتىملىق يولغا چىققان كۈنى، لوندون يەر ئاستى مېترو شىركىتى تېخىمۇ كۆپ ئادەمنىڭ بۇ تەبرىكلەش پائالىيىتىگە قاتنىشىشى ئۈچۈن بۇ قېتىملىق پائالىيەتنىڭ ۋاقتىنى 13-يانۋار يەنى يەكشەنبە كۈنىگە ئورۇنلاشتۇرغان. پائالىيەتتە چوقۇم ۋېكتورىيە دەۋرىدىكى كىيىملىرىنى كىيىپ، مېترودا ئولتۇرۇشى كېرەك.&nbsp;</font></p> <p align=\"justify\"> <trs_page_separator> </trs_page_separator> </p> <p align=\"center\"><font style=\"font-size: 14pt\" face=\"ALKATIP_CNR\"><img style=\"border-top-width: 0px; border-left-width: 0px; border-bottom-width: 0px; border-right-width: 0px\" alt complete=\"complete\" oldsrc=\"W020150818447884416310.jpg\" src=\"W020150818447884416310.jpg\" /></font></p> <p align=\"center\"><font style=\"font-size: 10.5pt\" face=\"ALKATIP_CNR\">ئۆتكەن ئەسىرنىڭ 20-يىللىرىدىكى لوندۇن مېتروسىنىڭ ئىچى</font></p> <p align=\"justify\"><font style=\"font-size: 14pt\" face=\"ALKATIP_CNR\">بەزى يولۇچىلار ئۆزلىرى ئەڭ ياخشى كۆرىدىغان ۋېكتورىيە دەۋرىدىكى ماركىلىق كىيىملىرىنى كىيىشىپ، خۇشاللىقىدىن ھاياجانلانغا ھالدا قوللىرىنى دەرىزىدىن سىرتقا چىقىرىپ، ۋوگزالدىكى ئادەملەرگە قوللىرىنى پۇلاڭشىتاتتى. پاراۋۇزنىڭ بېشىدا خىزمەتچىلەر پويىزنىڭ 150 يىل بۇرۇنقى تۇنجى قېتىم قوزغالغان ھالىتىنى تەقلىد قىلىشىپ، ۋوگزال سەھنىسىدە تۇرغان ئادەملەرگە قاراپ ئىسقارتىپ قوللىرىنى پۇلاڭشىتىپ كەيپىياتنى تېخىمۇ يۇقىرى كۆتۈرگەن. پويىزنىڭ سۇيۇق كرىستاللىق ئېكرانىدا: «بۇ قېتىملىق پويىز يۈرگۈزۈلمەيدۇ، چۈنكى 150 يىل بۇرۇنقى پويىز بولغانلىقى ئۈچۈن» دېگەندەك قىزىقارلىق گەپلەر كۆرۈنۈپ تۇراتتى. ۋاگوندا ھاياجانلانغان يولۇچىلار بىلەن سېلىشتۇرغاندا، ۋوگزال سەھنىسى تېخىمۇ قىزىپ كەتكەنىدى. ئەنگىلىيە مۇخبىرى تېلىكامىراغا قاراپ توختىماستىن لوندون يەر ئاستى مېترو تارىخىنى ئاغزى-ئاغزىغا تەگمەي سۆزلەۋاتقان، يەر ئاستى پويىزى فورمىسىنى كىيىۋالغان خىزمەتچىلەر ئەسلىدىمۇ ئانچە كەڭ بولمىغان ۋوگزالدا قىستىلىشىپ ئۇياقتىن-بۇياققا ئالدىراش مېڭىپ يۈرگەن بۇ كۆرۈنۈشلەر 150 يىل ئىلگىرى لوندۇن يەر ئاستى مېتروسى تۇنجى قېتىم قوزغالغان كارتىنىنى قايتىدىن بىر نامايەن قىلغانىدى. ئەينى چاغدا تۇنجى قېتىم قوزغالغان مېترو گەرچە تۆت&nbsp; كىلومېتىرمۇ كەلمەيدىغان يول يۈرگەن بولسىمۇ، كىشىلەر بۇنداق شەھەر ئىچىگە قاتنايدىغان يەر ئاستى مېتروسى كىشىلەر تۇرمۇشىغا زادى قانچىلىك ئۆزگىرىش ئېلىپ كېلەلەيدىغاندۇ دەپ ۋوگزال سەھنىسىدە ھەۋەس بىلەن قاراپ تۇرغان كۆرۈرمەنلەر سەھنىگە پاتماي قالغانىدى.</font></p> <p align=\"justify\"> <trs_page_separator> </trs_page_separator> </p> <p align=\"center\"><font style=\"font-size: 14pt\" face=\"ALKATIP_CNR\"><img style=\"border-top-width: 0px; border-left-width: 0px; border-bottom-width: 0px; border-right-width: 0px\" alt complete=\"complete\" oldsrc=\"W020150818447884411162.jpg\" src=\"W020150818447884411162.jpg\" /></font></p> <p align=\"justify\"><font style=\"font-size: 14pt\" face=\"ALKATIP_CNR\">ئەنگىلىيىلىكلەر ھاۋارايى ئۇچۇرلىرىغا قارىغاندا يەر ئاستى مېتروسىنىڭ ئۇچۇرلىرىغا بەكرەك ئېتىبار بېرىدىكەن. 150 يىلدىن بېرى لوندون يەر ئاستى مېتروسى لىنىيىسى ئۈزلۈكسىز ھالدا رېمونت قىلىنپ تۇردى. ھازىر لوندون يەر ئاستى مېترو لىنىيىسىنىڭ ئۇزۇنلۇقى 400 كىلومېتىر، 270&nbsp; بېكەت بار بولۇپ، يەتتە چوڭقۇر قاتلام&nbsp; يەر ئاستى پويىزى بىلەن تۆت تېيىز قاتلام يەر ئاستى پويىزى بىرلىشىپ ئىسمى جىسمىغا لايىق «يەر ئاستى سىرلىق ئوردا»سىنى شەكىللەندۈرگەن. تاشيولدا قىستاڭچىلىق، ماشىنىلارنىڭ توسۇلۇپ قېلىش ئەھۋاللىرى ئېغىر بولغاچقا، يەرئاستى مېتروسى لوندونلۇقلارنىڭ سەپەرگە ئاتلىنىشتىكى ئەڭ ياخشى تاللىشى بولغان. لوندونلۇقلارنىڭ يەر ئاستى مېتروغا بېقىنىشچانلىقى كۈچلۈك بولغاچقا، ناۋادا يەر ئاستى مېتروسىدىن سەللا كاشىلا چىقىدىغان بولسا، ئاممىنىڭ كۈچلۈك نارازىلىقىنى قوزغايدۇ. ئەنگىلىيە رادىيو شىركىتىنىڭ دېيىشىچە: نۇرغۇن ۋاقىتلاردا كىشىلەر ھاۋارايى مەلۇماتىغا قارىغاندا يەر ئاستى مېترو ئۇچۇرلىرى توغرىسىدا كۆپرەك سۆھبەتلىشىدىكەن ھەمدە كۆڭۈل بۆلىدىكەن.</font></p> <p align=\"justify\"> <trs_page_separator> </trs_page_separator> </p> <p align=\"center\"><font style=\"font-size: 14pt\" face=\"ALKATIP_CNR\"><img style=\"border-top-width: 0px; border-left-width: 0px; border-bottom-width: 0px; border-right-width: 0px\" height=\"533\" alt width=\"734\" complete=\"complete\" oldsrc=\"W020150818447884412504.jpg\" src=\"W020150818447884412504.jpg\" /></font></p> <p align=\"justify\"><font style=\"font-size: 14pt\" face=\"ALKATIP_CNR\">لوندۇننىڭ يەر ئاستى مېتروسىنىڭ مەدەنىيەت پۇرىقى كۈچلۈك بولغاچقا، لوندون يەر ئاستى مېتروسى ھوللىۋۇدنىڭ داڭلىق كىنولىرىدىكى مۇھىم مەنزىرىلەرنىڭ بىرى.007&nbsp; فىلىمى ۋە خاررىي پوتتېر فىلىمىلىرىدا يەر ئاستى مېترو بېكىتى ئاساسلىق مەنزىرە تاللاش ئوبيېكتى قىلىنغان. سىتاتىستىكىغا ئاساسلانغاندا، 2011-يىلدىن2012-يىلغىچە بولغان بىر يىلدىلا يەر ئاستى مېتروسىنىڭ يولۇچىلارنى توشۇش قېتىم سانى 1 مىليارد 200 مىليوندىن ئېشىپ چۈشكەن، لوندۇن مىتروسى دۇنيادىكى ئەڭ داڭلىق شۇنداقلا تۇنجى سېلىنغان مىترو. ئەنگىلىيىلىكلەر بولۇپمۇ لوندونلۇقلار لوندون يەر ئاستى مېتروسىدىن پەخىرلىنىدۇ. شۇڭا لوندۇن مىتروسى «BMW»،«ئالما» ماركىلىرىدەكلا&nbsp; خەلقئارالىق داڭلىق ماركىغا ئايلانغان.</font></p> <p align=\"justify\"> <trs_page_separator> </trs_page_separator> </p> <p align=\"center\"><font style=\"font-size: 14pt\" face=\"ALKATIP_CNR\"><img style=\"border-top-width: 0px; border-left-width: 0px; border-bottom-width: 0px; width: 755px; height: 479px; border-right-width: 0px\" height=\"568\" alt width=\"837\" complete=\"complete\" oldsrc=\"W020150818447884414404.jpg\" src=\"W020150818447884414404.jpg\" /></font></p> <p align=\"justify\"><font style=\"font-size: 14pt\" face=\"ALKATIP_CNR\">لوندون يەر ئاستى مېتروسىنىڭ دۇنياۋى ماركا بولغانلىقىدا ئۇنىڭ بەلگىسى ئىنتايىن مۇھىم رول ئوينىغان.&nbsp;تېگى ئاق رەڭ، ھالقىسى قىزىل رەڭ، ئوتتۇرىسىغا مىترو دەپ يېزىلغان بۇ شەرتلىك بەلگە كىشىلەرگە مىترو بەلگىسى ئىچىدىكى مودا تۇيغۇسى بېرىدۇ. شۇڭا لوندوننىڭ مىترو بەلگىسى چۈشۈرۈلگەن ئىستاكان، كۆينەك ۋە تاۋار ئېلانلىرى لوندۇن ساياھەتچىلىكىدىكى ئەڭ ئىتتىك مەھسۇلاتلار. لوندونلۇقلار يەر ئاستى مېتروسىنىڭ دائىملىق مېھمىنى بولۇش سۈپىتى بىلەن، پۈتۈن دۇنياغا داڭلىق بۇ مېترونىڭ 150 يىللىقىدا ئۆزلىرى تەييارلىغان سەرخىل تۇغۇلغان كۈن بۇيۇملىرىنى سوۋغا قىلغان. مۇزىكا مەستانىلىرى 150 يىلدىن بېرى يەر ئاستى مېتروسىنى مەدھىيلىگەن ناخشىلارنى يىغىپ ئىنتېرنېت تورىغا يوللاپ تورداشلار بىلەن ئورتاق بەھرىمان بولدى. ئەنگىلىيە خان جەمەتى پوچتىسى ۋە تەڭگە پۇل ياساش زاۋۇتى مۇشۇ ئالاھىدە كۈن ئۈچۈن خاتىرە پوچتا ماركىسى ۋە ئىككى فوندستېرلىڭ&nbsp; تەڭگىسىنى ياساپ تارقاتقان. يېقىندىن بۇيان «يەر ئاستى تۆمۈر يولىدىكى ئۇنتۇلغۇسىز مىنۇت»دېگەن تېما تورداشلارنىڭ ئەڭ قىزىقىدىغان ماقالە يېزىش تېمىسى بولۇپ قالغان. لوندون يەرئاستى تۆمۈر يولىنىڭ نۇرغۇن ئاچال بېكەتلىرى ئوخشىمىغان ئاخىرقى بېكەتلەرگە تۇتاشقاچقا، بەزىلەر خاتا بېكەتتە چۈشۈپ قېلىپ ئۆزلىرىنىڭ ھازىرقى ئۆمۈرلۈك ھەمراھلىرى بىلەن شۇ يەردە بىر كۆرۈپلا ياخشى كۆرۈشۈپ قېلىشقان گۈزەل ئەسلىمىلىرىنى مەڭگۈ ئەسلەيدىغانلىقىنى بىلدۈرگەن.<br style=\"font-size: 14pt\" /> </font></p> </DIV>"
				);
		
		System.out.println(content);
	}
}
